Telegram Group »
Poland »
Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение » Telegram Webview
Product Analyst, Relocation (Mexico/Serbia)
Deep Learning Engineer — от 300 000 до 550 000 ₽, гибрид (Москва)
Senior-Lead Analyst, удаленка
Data analyst (Мiddle/Middle+), гибрид (Москва)
Senior Data Analyst, удалёнка (в РФ и за рубежом)
ML-разработчик (Генеративные E-com-сценарии / LLM) — от 300 000 до 400 000 ₽, гибрид (Москва, Санкт-Петербург, Екатеринбург, Нижний Новгород)
Data Scientist в области языковых моделей (Middle) — от 351 000 ₽, удалёнка (Москва, Санкт-Петербург, Екатеринбург, Нижний Новгород)
Data Analyst — от 80 000 до 100 000 ₽, удалёнка
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 Шпаргалка по срезам списков в Python
Полезно как для начинающих, так и для практикующих разработчиков.
📥 Сохраняйте в закладки, чтобы всегда было под рукой.
Библиотека дата-сайентиста #буст
Полезно как для начинающих, так и для практикующих разработчиков.
📥 Сохраняйте в закладки, чтобы всегда было под рукой.
Библиотека дата-сайентиста #буст
NumExpr — мощный инструмент для ускорения вычислений с массивами в Python, который может значительно повысить производительность при работе с большими данными и сложными математическими выражениями.
Преобразовать медленный цикл, который занимал 650 мс, в вычисление за 60 мс — это реальность с использованием NumExpr.
Вот как NumExpr ускоряет вычисления
NumExpr избегает создания огромных временных массивов, разбивая их на части, соответствующие размеру кэша.
Эти части обрабатываются и передаются через легковесную виртуальную машину, что ускоряет выполнение и оптимизирует доступ к памяти.
Использование инструкций SIMD (Single Instruction, Multiple Data) позволяет обрабатывать несколько элементов данных одновременно.
При доступности NumExpr использует библиотеку Intel Math Kernel Library (MKL) для трансцендентных функций (таких как sin(), cos(), exp()), что значительно повышает производительность.
NumExpr автоматически распределяет вычисления между всеми ядрами процессора. Это позволяет эффективно использовать мощности многозадачности, ускоряя вычисления даже при больших данных.
Для работы с NumExpr достаточно заменить стандартные операции NumPy на аналоги NumExpr:
import numexpr as ne
import numpy as np
# Пример массивов
a = np.random.random(1000000)
b = np.random.random(1000000)
# Обычная операция NumPy
result = np.sin(a) + np.cos(b)
# Эквивалент NumExpr
result_ne = ne.evaluate('sin(a) + cos(b)')
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❓Зачем Data Scientist изучать ML?
Машинное обучение — это не просто модное словосочетание. Это основа Data Science, без которой успешная карьера в этой области невозможна. Вы не сможете работать с большими данными и обучать ИИ, если не освоите методы ML.
На открытом вебинаре 19 мая в 18:00 мск вы узнаете, зачем вам ML, и научитесь решать реальную задачу: классифицировать изображения с помощью машинного обучения.
📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России.
➡️ Записывайтесь на открытый вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://clc.to/C1ZmnQ
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Машинное обучение — это не просто модное словосочетание. Это основа Data Science, без которой успешная карьера в этой области невозможна. Вы не сможете работать с большими данными и обучать ИИ, если не освоите методы ML.
На открытом вебинаре 19 мая в 18:00 мск вы узнаете, зачем вам ML, и научитесь решать реальную задачу: классифицировать изображения с помощью машинного обучения.
📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России.
➡️ Записывайтесь на открытый вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://clc.to/C1ZmnQ
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
📊 Промт дня: быстрый разведочный анализ (EDA) нового датасета
Перед тем как приступить к построению моделей или визуализаций, важно понять, с какими данными вы работаете. Разведочный анализ (Exploratory Data Analysis, EDA) помогает выявить структуру, качество и ключевые особенности датасета — это фундамент любого проекта в области аналитики и машинного обучения.
Промт:
🎯 Цель — получить общее представление о структуре, качестве и особенностях данных до начала построения моделей или визуализаций.
Поддерживается использование специализированных инструментов:
📝
📝
📝
Библиотека дата-сайентиста #буст
Перед тем как приступить к построению моделей или визуализаций, важно понять, с какими данными вы работаете. Разведочный анализ (Exploratory Data Analysis, EDA) помогает выявить структуру, качество и ключевые особенности датасета — это фундамент любого проекта в области аналитики и машинного обучения.
Промт:
Выполни экспресс-EDA (Exploratory Data Analysis) на pandas DataFrame. Проанализируй следующие аспекты:
• Определи типы переменных (числовые, категориальные и пр.).
• Проверь наличие и долю пропущенных значений по столбцам.
• Рассчитай базовые статистики (среднее, медиана, стандартное отклонение и т.д.).
• Оцени распределения признаков и выдели потенциальные выбросы.
• Сформулируй ключевые наблюдения и инсайты, которые могут повлиять на последующую обработку или моделирование данных.
🎯 Цель — получить общее представление о структуре, качестве и особенностях данных до начала построения моделей или визуализаций.
Поддерживается использование специализированных инструментов:
pandas_profiling
/ ydata-profiling
— для автоматического отчета,sweetviz
— для визуального сравнения датасетов,seaborn
и matplotlib
— для точечных визуализаций распределений и корреляций.Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨 Смешные новости про IT теперь в одном канале
Мы запустили @hahacker_news — наш новый юмористический IT-канал.
Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.
👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
Мы запустили @hahacker_news — наш новый юмористический IT-канал.
Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.
👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
This media is not supported in your browser
VIEW IN TELEGRAM
🤝 Hugging Face + Kaggle: улучшенный доступ к моделям для всех
Теперь Kaggle и Hugging Face тесно интегрированы:
➡️ Вы можете запускать модели Hugging Face напрямую в Kaggle-ноутбуках.
➡️ Kaggle автоматически создаёт страницы моделей на своей стороне, если их ещё нет.
➡️ Появилась централизованная точка для поиска моделей и примеров кода.
📤 Из Hugging Face в Kaggle:
1. Зайдите на страницу модели (например,
2. Нажмите «Use this model» → выберите Kaggle.
3. Откроется ноутбук с уже готовым кодом для загрузки модели.
📥 Из Kaggle в Hugging Face:
1. На Kaggle-моделях теперь есть вкладка «Code», где отображаются все публичные ноутбуки, использующие эту модель.
2. Также есть кнопка «Открыть в Hugging Face» — для перехода на оригинальную страницу модели с полными метаданными и обсуждениями.
🚩 В ближайшие месяцы Kaggle планирует внедрить поддержку моделей Hugging Face в оффлайн-соревнованиях. Это требует особого подхода, так как Kaggle строго следит за отсутствием утечек данных и честностью результатов.
✅ Подробности в блоге: https://clc.to/YCGcmQ
Библиотека дата-сайентиста #свежак
Теперь Kaggle и Hugging Face тесно интегрированы:
📤 Из Hugging Face в Kaggle:
1. Зайдите на страницу модели (например,
Qwen/Qwen3-1.7B
) на Hugging Face.2. Нажмите «Use this model» → выберите Kaggle.
3. Откроется ноутбук с уже готовым кодом для загрузки модели.
📥 Из Kaggle в Hugging Face:
1. На Kaggle-моделях теперь есть вкладка «Code», где отображаются все публичные ноутбуки, использующие эту модель.
2. Также есть кнопка «Открыть в Hugging Face» — для перехода на оригинальную страницу модели с полными метаданными и обсуждениями.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Как ускорить Python-код для ресурсоёмких задач
При работе с большими объёмами данных Python может «тормозить», особенно при обработке сотен тысяч строк или обучении сложных ML-моделей.
🎯 Ниже — два приёма, которые позволят ускорить обучение и загрузку данных в десятки раз.
1️⃣ Используйте GPU с включённым memory growth
По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:
2️⃣ Оптимизируйте загрузку данных с `tf.data`
Загрузка Excel-файла — типичное узкое место (Disk I/O). Использование
Пример:
📎 Вывод:
GPU и
Библиотека дата-сайентиста #буст
При работе с большими объёмами данных Python может «тормозить», особенно при обработке сотен тысяч строк или обучении сложных ML-моделей.
🎯 Ниже — два приёма, которые позволят ускорить обучение и загрузку данных в десятки раз.
По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
for gpu in gpus:
tf.config.experimental.set_memory_growth(gpu, True)
Загрузка Excel-файла — типичное узкое место (Disk I/O). Использование
tf.data.Dataset
с prefetch
позволяет загружать и обрабатывать данные асинхронно.Пример:
dataset = tf.data.Dataset.from_generator(
data_generator,
output_signature={col: tf.TensorSpec(shape=(), dtype=tf.float32) for col in data.columns}
).shuffle(1000).batch(32).prefetch(tf.data.AUTOTUNE)
📎 Вывод:
GPU и
tf.data
с правильной настройкой дают мощный прирост производительности. Особенно важно при работе с крупными ML-пайплайнами и в продакшене.Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Fest 2025 в гостях у VK — офлайн 24 мая 🤩
Открываем конференцию Data Fest 2025 — в офисе VK. Приходите познакомиться с опытом дата-инженеров и исследователей в направлениях LLM, NLP, MLOps и других. Эксперты VK подготовили секцию докладов о RecSys, Reliable ML и карьере тимлида. Афтепати с розыгрышем призов и нетворкингом прилагается.
📍 Встречаемся 24 мая по адресу: Ленинградский проспект, 39, стр. 79, БЦ Skylight, башня А.
🤗 Регистрация уже открыта.
Количество мест ограничено, поэтому заполняйте анкету внимательно.
Открываем конференцию Data Fest 2025 — в офисе VK. Приходите познакомиться с опытом дата-инженеров и исследователей в направлениях LLM, NLP, MLOps и других. Эксперты VK подготовили секцию докладов о RecSys, Reliable ML и карьере тимлида. Афтепати с розыгрышем призов и нетворкингом прилагается.
📍 Встречаемся 24 мая по адресу: Ленинградский проспект, 39, стр. 79, БЦ Skylight, башня А.
🤗 Регистрация уже открыта.
Количество мест ограничено, поэтому заполняйте анкету внимательно.
🎧 Как работает преобразование Фурье — простыми словами и на Python
⠀
Вы, наверняка, слышали о преобразовании Фурье, но что это на самом деле и зачем оно нужно?
⠀
Мы подготовили для вас 6 простых карточек:
📍 Что делает преобразование Фурье
📍 Как разложить сигнал
📍 Как найти шум
📍 И даже как его убрать!
⠀
Листайте 👉
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/1DKn7CfvLQ
Библиотека дата-сайентиста #буст
⠀
Вы, наверняка, слышали о преобразовании Фурье, но что это на самом деле и зачем оно нужно?
⠀
Мы подготовили для вас 6 простых карточек:
⠀
Листайте 👉
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/1DKn7CfvLQ
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик